سفارش تبلیغ
صبا ویژن
 
از ویژگیهای مؤمن آن است که از حرامها پاک باشد و در شبهه ها توقف کند . [پیامبر خدا صلی الله علیه و آله ـ به علی علیه السلام ـ]
 
امروز: پنج شنبه 103 آذر 22

داده‌کاوی پایگاه‌ها و مجموعه‌های حجیم داده‌ها را در پی کشف واستخراج دانش مورد تحلیل و کند و کاوهای ماشینی (و نیمه‌ماشینی) قرار می‌دهد. این گونه مطالعات و کاوش‌ها را به واقع می‌توان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینه‌ها و کاربردها، و نیز ابعاد و اندازه‌های داده‌های امروزین است که شیوه‌های ماشینی مربوط به یادگیری، مدل‌سازی، و تعلّم را طلب می‌نماید.

اصلاح Data Mining همان طور که از ترجمه آن به معنی داده کاوی مشخص می‌شود به مفهوم استخراج اطلاعات نهان و یا الگوها وروابط مشخص در حجم زیادی از داده‌ها به یک یا چند بانک اطلاعاتی بزرگ است.

مقدمه  

بسیاری از شرکت‌ها و موسسات دارای حجم انبوهی از اطلاعات هستند. تکنیک‌های داده‌کاوی به طور تاریخی به گونه‌ای گسترش یافته‌اند که به سادگی می‌توان آنها را با ابزارهای نرم‌افزاری امروزی و موجود در این موسسات تطبیق داده و از اطلاعات جمع آوری شده فعلی بهترین بهره را برد. در صورتی که سیستم‌های Data Mining بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانک‌های اطلاعاتی بزرگ فراهم باشد، به کمک چنین سیستم‌هایی می‌توان به سوالاتی از قبیل :کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشد «چراًدر کدام مقطع زمانی»و بسیاری از موارد مشابه پاسخ داد.

ویژگی‌ها  

یکی از ویژگیهای کلیدی در بسیاری از ابتکارات مربوط به تامین امنیت ملی داده کاوی است. داده کاوی که به عنوان ابزاری برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار می‌رود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از داده هاست.داده کاوی غالبا در زمینه تامین امنیت ملی به منزله ابزاری برای شناسایی فعالیت‌های افراد خرابکار شامل جابه جایی پول و ارتباطات بین آنها و همچنین شناسایی و ردگیری خود آنها با برسی سوابق مربوط به مهاجرت و مسافرت هاست. داده کاوی پیشرفت قابل ملاحظه‌ای را در نوع ابزارهای تحلیل موجود نشان می‌دهد اما محدودیت‌هایی نیز دارد. یکی از این محدودیت‌ها این است که با وجود اینکه به آشکارسازی الگوها و روابط کمک می‌کند اما اطلاعاتی را در باره ارزش یا میزان اهمیت آنها به دست نمی‌دهد. دومین محدودیت آن این است که با وجود توانایی شناسایی روابط بین رفتارها و یا متغیرها لزوما قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی را نباید در گرو بهره گیری از کارشناسان فنی و تحلیل گران کار آزموده‌ای است که از توانایی کافی برای طبقه بندی تحلیل‌ها و تغییر آنها برخور دار هستند. بهره برداری از داده کاوی رو بر دو بخش دولتی و خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت و بازار یابی آنرا عموما برای کاهش هزینه‌ها، ارتقاء کیفی پژوهش‌ها و بالاتر بردن میزان فروش به کار می‌برند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرایم بوده‌است اما امروزه دامنه بهره برداری از آن گسترش روز افزونی یافته و سنجش و بهینه سازی برنامه‌ها ربا نیز در بر می‌گیرد. برسی برخی از برنامه‌های کاربردی مربوط به داده کاوی که برای تامین امنیت ملی به کار می‌روند نشان دهنده رشد قابل ملاحظه‌ای در رابطه با کمیت و دامنه داده‌هایی است که باید تجزیه و تحلیل شوند. توانایی‌های فنی در داده کاوی از اهمیت ویژه‌ای برخوردار اند اما عوامل دیگری نیز مانند چگونگی پیاده سازی و نظارت ممکن است نتیجه کار را تحت تاپیر قرار دهند. یکی از این عوامل کیفیت داده هاست که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرم‌افزار داده کاوی با بانکهای اطلاعاتی است که از سوی شرکت‌های متفاوتی عرضه می‌شوند عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهره برداری از داده‌ها به منظوری است که در ابتدا با این نیت گرد آوری نشده‌اند حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت اصولا به پرسش‌های زیر در زمینه داده کاوی باید پاسخ داده شود:

  • سازمانهای دولتی تا چه حدی مجاز به بهره برداری از داده‌ها هستند؟
  • آیا از داده‌ها در چارچوبی غیر متعارف بهره برداری می‌شود؟
  • کدام قوانین حفظ حریم خصوصی ممکن است به داده کاوی مربوط شوند؟


کاوش در داده‌ها بخشی بزرگ از سامانه‌های هوشمند است. سامانه‌های هوشمند زیر شاخه‌ایست بزرگ و پرکاربرد از زمینه علمی جدید و پهناور یادگیری ماشینی که خود زمینه‌ای‌ست در هوش مصنوعی.

فرایند گروه گروه کردن مجموعه‌ای از اشیاء فیزیکی یا مجرد به صورت طبقه‌هایی از اشیاء مشابه هم را خوشه‌بندی می‌نامیم.

با توجه به اندازه‌های گوناگون (و در اغلب کاربردها بسیار بزرگ و پیچیده) مجموعه‌های داده‌ها مقیاس‌پذیری الگوریتم‌های به کار رفته معیاری مهم در مفاهیم مربوط به کاوش در داده‌ها است.

کاوش‌های ماشینی در متون حالتی خاص از زمینه عمومی‌تر کاوش در داده‌ها بوده، و به آن دسته از کاوش‌ها اطلاق می‌شود که در آن‌ها داده‌های مورد مطالعه از جنس متون نوشته شده به زبان‌های طبیعی انسانی باشد.

چیستی 

داده کاوی به بهره گیری از ابزارهای تجزیه و تحلیل داده‌ها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بوده‌اند اطلاق می‌شود. این ابزارها ممکن است مدلهای آماری الگوریتم‌های ریاضی و روش‌های یاد گیرنده (Machine Laming Method) باشند که کار این خود را به صورت خودکار و بر اساس تجربه‌ای که بر اساس تجربه‌ای که از طریق شبکه‌های عصبی (Networks Several) یا درخت‌های تصمیم گیری (Decision Tree) به دست می‌آورند بهبود می‌بخشد. داده کاوی منحصر به گردآوری و مدریت داده‌ها نبوده و تجزیه و تحلیل اطلاعات و پیش بنی را نیز شامل می‌شود برنامه‌های کاربردی که با برسی فایل‌های متن یا چند رسانه‌ای به کاوش داده‌های پردازنده پارامترهای گوناگونی را در نظر می‌گیرد که عبارت اند از: *رابطه (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود مثلا خرید قلم به خرید کاغذ.

  • ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد رویدادهای دیگری را در پی دارد مثلا تولد یک نوزاد و خرید پوشک.
  • دسته بندی(Classification): شناسایی الگوهای جدید مثلا همزمانی خرید چسب و پوشه
  • خوشه بندی(Clustering): کشف و مستند سازسی مجموعه‌ای از حقایق ناشناخته مثلا موقعیت جغرافیایی خرید محصولی با مارک خاص
  • پیش بینی(Forecasting):کشف الگوهایی که بر اساس آنها پیش بینی قابل قبولی از رویدادهای آتی ارایه می‌شود، مثلا رابطه عضویت در یک باشگاه ورزشی با شرکت ذر کلاسهای ورزشی.

برنامه‌های کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار می‌روند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانک‌های اطلاعاتی یافت می‌شود و در ابزارهای تجزیه و تحلیل آماری برخوردار اند اما برنامه‌های مربوط به داده کاوی در عین برخورداری از این قابلیت‌ها از نظر نوع با آنها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل داده‌ها روشی بر پایه راستی آزمایی (verifi action)را به کار می‌برند که در آن فریضه‌ای بسط داده شده آنگاه داده‌ها برای تایید یا رد آن بررسی می‌شوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای اریه فریضه‌های متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوی روشهایی برای کشف روابط بکار برده می‌شوند و به کمک الگوریتم‌هایی روابط چند بعدی بین داده‌ها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی می‌شوند. به طور مثال در یک فروشگاه سخت‌افزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطه‌ای برقرار شود.

در نتیجه قابلیت‌های پیچیده اش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحله‌ای در روند کشف د انش در پایگاه داده‌ها می‌دانند (KDD). مراحل دیگری در روند KDD به صورت تساعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش می‌باشد. بسیاری از پیشرفت‌ها در تکنولوژی و فرآیندهای تجاری بر رشد علاقه مندی به داده کاوی در بخش‌های خصوصی و عمومی سهمی داشته‌اند. بعضی از این تغییرات شامل:

  • رشد شبکه‌های کامپیوتری که در ارتباط برقرار کردن پایگاهها داده مورد استفاده قرار می‌گیرند.
  • توسعه افزایش تکنیکهایی بر پایه جستجومثل شبکه‌های عصبی و الگوریتم‌های پیشرفته.
  • گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع داده‌های متمرکز شده را از روی دسک تاپ می‌دهد.
  • و افزایش توانایی به تلفیق داده از منابع غیر متناجس به یک منبع قابل جستجو می‌باشد.

علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا می‌کند. در طول چند سال کذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشته‌است. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت داده‌های دنیا به طور تخمینی هر ساله دوبرابر می‌گردد. در همین زمان هزینه ذخیره سازی داده‌ها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کرده‌است. مطابقا قدرت محاسبه‌ها در هر 18– 24ماه به دوبرابر ارتقاء پیدا کرده‌است این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاو به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کرده‌است. سازمانها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده می‌کنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانی‌هایی در مورد کیفیت داده‌ای که تحلیل می‌گردد، توانایی کار گروهی پایگاههای داده و نرم‌افزارها بین ارگانها و تخطی‌های بالقوه به حریم شخصی می‌باشد.همچنین ملاحظاتی در مورد محدودیتهایی در داده کاوی در ارگان‌ها که کارشان تاثیر بر امنیت دارد، نادیده گرفته می‌شود.

محدودیت‌های داده کاوی 

در حالیکه محصولات داده کاوی ابزارهای قدرتمندی می‌باشند، اما در نوع کاربردی کافی نیستند.برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفه‌ای و متخصصان ماهری می‌باشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند.در نتیجه محدودیتهای داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.

اگرچه داده کاوی به الگوهای مشخص و روابط آنها کمک می‌کند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمی‌کند.تصمیماتی از این قبیل بر عهده خود کاربر است.برای نمونه در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود.با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.

تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای داده کاوی می‌باشد که لزوماًروابط اتفاقی را تشخیص نمی‌دهد.برای مثال برنامه‌های کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد.در حقیقت رفتارهای شخصی شامل شغل(نیاز به سفر در زمانی محدود)وضع خانوادگی(نیاز به مراقبت پزشکی برای مریض)یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکان‌های جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.

 

منابع

Two Crows Corporation, Introduction to Data Mining and Knowledge Discovery, Third Edition (Potomac, MD: Two Crows Corporation, 1999); Pieter Adriaans and Dolf Zantinge, Data Mining New York: Addison Wesley, 1996

John Makulowich, “Government Data Mining Systems Defy Definition,” Washington Technology, 22 February 1999, [http://www.washingtontechnology.com/news/13_22/tech_ features/393-3.html

Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques (New York: Morgan Kaufmann Publishers, 2001), p. 7

Pieter Adriaans and Dolf Zantinge, Data Mining (New York: Addison Wesley, 1996), pp. 5-6

Two Crows Corporation, Introduction to Data Mining and Knowledge Discovery, Third Edition (Potomac, MD: Two Crows Corporation, 1999), p.4 .

 

  • کاوش‌های ماشینی در داده‌ها: مفاهیم و تکنیک‌ها - چاپ دوم (انگلیسی)
  • کاوش‌های ماشینی در داده‌ها: ابزارها و تکنیک‌های عملی برای یادگیری ماشینی - چاپ دوم (انگلیسی)
  • مفاهیم مربوط به سامانه‌های مدیریت پایگاه داده‌ها (انگلیسی)
  • سامانه‌های مدیریّت پایگاه داده‌ها (انگلیسی)

پانویس 

  1. Data کلمه‌ای‌ست جمع (با مفرد Datum) که نمی‌شود آنرا به واژه مفرد «داده» نسبت داد. عدم رعایت این‌گونه اصول آشکار در دانشنامه‌ای با مقیاس و وسعت جهانی، تناقضات و ناسازگاری‌های معنایی (semantic) بعدی در تعاملات ماشینی با سایر زبان‌ها را در پی می‌آورد.

 نوشته شده توسط لادن در پنج شنبه 90/2/1 و ساعت 9:43 صبح | نظرات دیگران()
درباره خودم

وبلاگ  چت روم  کامپیوتر و شبکه در سایت الفور
مدیر وبلاگ : علی[32]
نویسندگان وبلاگ :
لادن[38]
حیران[0]

وبلاک چت روم شبکه و کامپیوتر در سایت الفور تاریخ تاسیس 19/1/1390

آمار وبلاگ
بازدید امروز: 50
بازدید دیروز: 7
مجموع بازدیدها: 103722
جستجو در صفحه

لوگوی دوستان
خبر نامه
 
وضیعت من در یاهو